Report

Il seguente progetto riguarda l’analisi di 2 dataset sul turismo in sardegna nel 2021. Il primo si focalizza sulla capacità delle strutture ricettive; il secondo si concentra su arrivo, provenienza e provincia di destinazione dei turisti.

Importazione del dataset

capacit2021= readr::read_csv("datasets/capacita_strutture_ricettive_mensile_2021.csv")
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   Comune = col_character(),
##   Anno = col_double(),
##   Mese = col_double(),
##   Tipologia = col_character(),
##   Stelle = col_character(),
##   `Numero Strutture` = col_double(),
##   Letti = col_double(),
##   Camere = col_double()
## )
capacit2021
summary(capacit2021)
##     Comune               Anno           Mese        Tipologia        
##  Length:15995       Min.   :2021   Min.   : 1.00   Length:15995      
##  Class :character   1st Qu.:2021   1st Qu.: 4.00   Class :character  
##  Mode  :character   Median :2021   Median : 7.00   Mode  :character  
##                     Mean   :2021   Mean   : 6.86                     
##                     3rd Qu.:2021   3rd Qu.: 9.00                     
##                     Max.   :2021   Max.   :12.00                     
##     Stelle          Numero Strutture      Letti            Camere       
##  Length:15995       Min.   :  1.000   Min.   :   0.0   Min.   :   0.00  
##  Class :character   1st Qu.:  1.000   1st Qu.:   8.0   1st Qu.:   3.00  
##  Mode  :character   Median :  1.000   Median :  18.0   Median :   8.00  
##                     Mean   :  6.725   Mean   : 105.1   Mean   :  41.39  
##                     3rd Qu.:  3.000   3rd Qu.:  54.0   3rd Qu.:  24.00  
##                     Max.   :904.000   Max.   :4717.0   Max.   :2097.00
str(capacit2021) #comune, anno, mese, Tipologia, Stelle, numero strutture, letti camere 
## spec_tbl_df [15,995 × 8] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ Comune          : chr [1:15995] "ABBASANTA" "ABBASANTA" "ABBASANTA" "ABBASANTA" ...
##  $ Anno            : num [1:15995] 2021 2021 2021 2021 2021 ...
##  $ Mese            : num [1:15995] 1 1 2 2 3 3 4 4 5 5 ...
##  $ Tipologia       : chr [1:15995] "Albergo" "Bed and breakfast" "Albergo" "Bed and breakfast" ...
##  $ Stelle          : chr [1:15995] "4 Stelle" "2 Stelle" "4 Stelle" "2 Stelle" ...
##  $ Numero Strutture: num [1:15995] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Letti           : num [1:15995] 25 4 25 4 25 4 25 4 25 4 ...
##  $ Camere          : num [1:15995] 10 2 10 2 10 2 10 2 10 2 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   Comune = col_character(),
##   ..   Anno = col_double(),
##   ..   Mese = col_double(),
##   ..   Tipologia = col_character(),
##   ..   Stelle = col_character(),
##   ..   `Numero Strutture` = col_double(),
##   ..   Letti = col_double(),
##   ..   Camere = col_double()
##   .. )
library(readr)
capacit2021= read_csv("datasets/capacita_strutture_ricettive_mensile_2021.csv", col_types = list(Comune= col_factor(), Stelle = col_factor(c(levels = "1 Stella", "2 Stelle", "III Categoria", "3 Stelle","II Categoria", "4 Stelle", "I Categoria", "5 Stelle", "5 Stelle Lusso")), Tipologia= col_factor()), na = "NULL")

str(capacit2021) 
## spec_tbl_df [15,995 × 8] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ Comune          : Factor w/ 314 levels "ABBASANTA","AGGIUS",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Anno            : num [1:15995] 2021 2021 2021 2021 2021 ...
##  $ Mese            : num [1:15995] 1 1 2 2 3 3 4 4 5 5 ...
##  $ Tipologia       : Factor w/ 17 levels "Albergo","Bed and breakfast",..: 1 2 1 2 1 2 1 2 1 2 ...
##  $ Stelle          : Factor w/ 9 levels "1 Stella","2 Stelle",..: 6 2 6 2 6 2 6 2 6 2 ...
##  $ Numero Strutture: num [1:15995] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Letti           : num [1:15995] 25 4 25 4 25 4 25 4 25 4 ...
##  $ Camere          : num [1:15995] 10 2 10 2 10 2 10 2 10 2 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   Comune = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   Anno = col_double(),
##   ..   Mese = col_double(),
##   ..   Tipologia = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   Stelle = col_factor(levels = c(levels = "1 Stella", "2 Stelle", "III Categoria", "3 Stelle", 
##   ..     "II Categoria", "4 Stelle", "I Categoria", "5 Stelle", "5 Stelle Lusso"
##   ..     ), ordered = FALSE, include_na = FALSE),
##   ..   `Numero Strutture` = col_double(),
##   ..   Letti = col_double(),
##   ..   Camere = col_double()
##   .. )
sum(is.na(capacit2021)) #non sono presenti valori mancanti ma molte osservazioni riguardo le stelle delle strutture sono state etichettate come NULL.
## [1] 5005
summary(capacit2021)
##        Comune           Anno           Mese      
##  ALGHERO  :  318   Min.   :2021   Min.   : 1.00  
##  OLBIA    :  301   1st Qu.:2021   1st Qu.: 4.00  
##  ARZACHENA:  257   Median :2021   Median : 7.00  
##  CAGLIARI :  222   Mean   :2021   Mean   : 6.86  
##  OROSEI   :  218   3rd Qu.:2021   3rd Qu.: 9.00  
##  DORGALI  :  216   Max.   :2021   Max.   :12.00  
##  (Other)  :14463                                 
##                            Tipologia             Stelle     Numero Strutture 
##  Bed and breakfast              :4655   3 Stelle    :3019   Min.   :  1.000  
##  Albergo                        :2464   II Categoria:2074   1st Qu.:  1.000  
##  Affittacamere                  :2240   2 Stelle    :2029   Median :  1.000  
##  Alloggi privati                :1993   1 Stella    :1595   Mean   :  6.725  
##  Agriturismo                    :1472   4 Stelle    : 825   3rd Qu.:  3.000  
##  Case e appartamenti per vacanze:1158   (Other)     :1448   Max.   :904.000  
##  (Other)                        :2013   NA's        :5005                    
##      Letti            Camere       
##  Min.   :   0.0   Min.   :   0.00  
##  1st Qu.:   8.0   1st Qu.:   3.00  
##  Median :  18.0   Median :   8.00  
##  Mean   : 105.1   Mean   :  41.39  
##  3rd Qu.:  54.0   3rd Qu.:  24.00  
##  Max.   :4717.0   Max.   :2097.00  
## 
# library("")
# readr::read_csv (na = "NULL")

Per prima cosa, è stato importato il dataset. Questo dataset contiene la capacità delle strutture ricettive della Regione Sardegna riferita all’anno 2021. La capacità ricettiva misura la consistenza in termini di numero delle strutture ricettive e relativi posti letto e camere. I dati sono suddivisi per comune, mese e tipologia di struttura. La fonte del dato è l’anagrafica del SIRED, il sistema informativo di raccolta ed elaborazione dati fornito dalla Regione Sardegna alle Province che lo gestiscono a livello territoriale. Il SIRED contiene i periodi di apertura delle strutture ricettive così come da queste comunicati. Sono comprese nel conteggio tutte le strutture (e relativi posti letto) che risultano aperte almeno un giorno nell’anno. Dal summary si può osservare che non sono presenti valori mancanti ma molte osservazioni riguardo le stelle delle strutture sono state etichettate come NULL. Le variabili Char sono state convertite in factor.

provenienza = read_csv("datasets/movimenti_macrotipologia_2021 _provenienza.csv")
## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   anno = col_double(),
##   provincia = col_character(),
##   mese = col_double(),
##   macro_tipologia = col_character(),
##   macro_provenienza = col_character(),
##   provenienza = col_character(),
##   arrivi = col_double(),
##   presenze = col_double()
## )
#str(provenienza) #anno, provincia, mese, macrotipologia, macroprovenienza, provenienza, arrivi, presenze (numero di notti trascorse dai clienti)
provenienza
provenienza =read_csv("datasets/movimenti_macrotipologia_2021 _provenienza.csv", col_types = list(provincia= col_factor(), macro_tipologia = col_factor (), macro_provenienza = col_factor(), provenienza = col_factor()))

sum(is.na(provenienza)) #sono presenti 114 valori mancanti 
## [1] 114
str(provenienza)
## spec_tbl_df [9,767 × 8] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ anno             : num [1:9767] 2021 2021 2021 2021 2021 ...
##  $ provincia        : Factor w/ 5 levels "Città metropolitana Cagliari",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ mese             : num [1:9767] 1 1 1 1 1 1 1 1 1 1 ...
##  $ macro_tipologia  : Factor w/ 3 levels "Alberghiero",..: 1 2 3 1 1 3 2 1 3 2 ...
##  $ macro_provenienza: Factor w/ 2 levels "Stranieri","Italiani": 1 1 1 1 1 1 1 1 1 1 ...
##  $ provenienza      : Factor w/ 80 levels "Francia","Paesi Bassi",..: 1 1 1 2 3 3 3 4 4 5 ...
##  $ arrivi           : num [1:9767] 36 1 3 2 23 3 3 10 3 1 ...
##  $ presenze         : num [1:9767] 77 7 4 2 87 4 23 12 5 1 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   anno = col_double(),
##   ..   provincia = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   mese = col_double(),
##   ..   macro_tipologia = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   macro_provenienza = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   provenienza = col_factor(levels = NULL, ordered = FALSE, include_na = FALSE),
##   ..   arrivi = col_double(),
##   ..   presenze = col_double()
##   .. )
provenienza_cleaned = na.omit(provenienza)

Il dataset raccoglie gli arrivi (numero di clienti ospitati negli esercizi ricettivi nel periodo considerato) e le presenze (numero di notti trascorse dai clienti negli esercizi ricettivi nel periodo considerato) dei turisti in Sardegna. I dati sono relativi all’anno 2021, e sono suddivisi per mese, macro-tipologia della struttura ricettiva, provenienza del turista (regione italiana o stato straniero) e provincia di pernottamento. I dati derivano dalle comunicazioni a fini statistici, obbligatorie per legge, che le strutture ricettive fanno alla Regione Sardegna

Provenienza

library("lubridate")
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library("tidyverse")
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.6     ✓ dplyr   1.0.7
## ✓ tibble  3.1.4     ✓ stringr 1.4.0
## ✓ tidyr   1.1.3     ✓ forcats 0.5.1
## ✓ purrr   0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x lubridate::as.difftime() masks base::as.difftime()
## x lubridate::date()        masks base::date()
## x dplyr::filter()          masks stats::filter()
## x lubridate::intersect()   masks base::intersect()
## x dplyr::lag()             masks stats::lag()
## x lubridate::setdiff()     masks base::setdiff()
## x lubridate::union()       masks base::union()
# macro-provenienza

arrivi_provenienza<- provenienza_cleaned %>% 
  group_by(macro_provenienza) %>%
  summarise(arrivi = sum(arrivi))

arrivi_provenienza
macro_provenienza<- arrivi_provenienza%>% 
  mutate(proportion= arrivi/sum(arrivi)) %>%
  mutate(macro_provenienza = reorder(macro_provenienza, proportion))

macro_provenienza
macro_provenienza %>%         
  ggplot(aes(macro_provenienza, proportion, fill= macro_provenienza))+
  geom_bar(stat = "identity", show.legend = FALSE) +
  theme(axis.text.y = element_text(size = 8),
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Macro provenienza dei turisti in Sardegna 2021", 
          subtitle= "macro provenienza dei clienti ospitati negli esercizi ricettivi nell'anno") +
  xlab("Macro-provenienza") + ylab("Proporzione")

La proporzione di turisti italiani (0.63) è quasi doppia rispetto ai turisti stranieri (0.37).

arrivi_luogo_provenienza<- provenienza_cleaned %>% 
  group_by(provenienza) %>%
  summarise(arrivi = sum(arrivi))

arrivi_luogo_provenienza
arrivi_luogo_provenienza <-arrivi_luogo_provenienza%>% 
  mutate(proportion= arrivi/sum(arrivi)) %>%
  mutate (provenienza_turisti= reorder(provenienza, proportion))

arrivi_luogo_provenienza %>% 
  top_n(30) %>% #
  ggplot(aes(provenienza_turisti, proportion))+ 
  geom_bar(stat = "identity")+
  coord_flip()+
  theme(axis.text.y = element_text(size = 8, face= "italic"), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Luogo di provenienza dei turisti in Sardegna 2021", 
          subtitle= "top 30 luoghi di provenienza dei clienti ospitati negli esercizi ricettivi nell'anno") +
  xlab("N° Arrivi") + ylab("Provenienza")
## Selecting by provenienza_turisti

Si può osservare che la maggior parte dei clienti ospitati negli esercizi ricettivi proviene da Sardegna (oltre il 20%) e Lombardia. Si osserva che i turisti stranieri provengono maggiormente da Germania, Francia e Svizzera.

Tipologia

arrivi_tipologia<- provenienza_cleaned %>% 
  group_by(macro_tipologia)  %>% 
  summarise(arrivi = sum(arrivi))

arrivi_tipologia
macro_tipologia <- arrivi_tipologia %>% 
  mutate(proportion= arrivi/sum(arrivi)) %>%
  mutate(macro_tipologia = reorder(macro_tipologia, proportion)) 

macro_tipologia %>%
  ggplot(aes(macro_tipologia, proportion, fill= macro_tipologia))+
  geom_bar(stat = "identity", show.legend = FALSE)+
  coord_flip()+
  scale_x_discrete(labels = scales::label_wrap(20)) +
  theme(axis.text.y = element_text(size = 8), 
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Macro-tipologia delle strutture ricettive scelte dai turisti", 
          subtitle= "Macro-tipologia degli esercizi ricettivi scelti dai turisti ") +
  xlab("Macro-tipologia") + ylab("Proporzione")

La maggior parte dei turisti preferisce pernottare in una struttura recettiva di macro-tipologia Alberghiera.

library("scales")
## 
## Attaching package: 'scales'
## The following object is masked from 'package:purrr':
## 
##     discard
## The following object is masked from 'package:readr':
## 
##     col_factor
tipologia_ <- capacit2021 %>% 
  group_by(Tipologia) %>%
  summarise(`Numero Strutture` = round(sum(`Numero Strutture`)/12, 0)) #numero di mesi

tipologia_
tipologia <-tipologia_ %>% 
  
  #mutate(proportion= Letti/sum(Letti)) %>%
  mutate(tipologia2= reorder(Tipologia, `Numero Strutture`))

tipologia %>%
  top_n(5)%>%
  ggplot(aes(tipologia2, `Numero Strutture`))+ 
  geom_bar(stat = "identity")+
  coord_flip()+
  scale_y_continuous(labels = label_number( big.mark = ".", decimal.mark= ","))+
  theme(axis.text.y = element_text(size = 8), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Top 5 tipologie strutture ricettive Sardegna 2021", subtitle= "Numero medio mensile strutture ricettive in Sardegna per tipologia") +
  
  xlab("Tipologia Struttura") + ylab("N° strutture aperte")
## Selecting by tipologia2

############# dividere il grafico in 2? ##############

Il numero medio strutture ricettive offerto ogni mese dell’anno dagli alloggi privati è di gran lunga superiore al numero delle restanti tipologie: per osservare meglio quest’ultime, le quali durante l’anno hanno un numero medio mensile di strutture operative inferiore a 300 si è deciso di raggrupparle nel grafico successivo.

tipologia_ <- capacit2021 %>% 
  group_by(Tipologia) %>%
  summarise(`Numero Strutture` = round(sum(`Numero Strutture`)/12, 0)) #numero di mesi

tipologia_
tipologia <-tipologia_ %>% 
  
  #mutate(proportion= Letti/sum(Letti)) %>%
  mutate(tipologia2= reorder(Tipologia, `Numero Strutture`))

filter(tipologia) %>%
  top_n(-12)%>%
  ggplot(aes(tipologia2, `Numero Strutture`))+ 
  geom_bar(stat = "identity")+
  coord_flip()+
  scale_y_continuous(labels = label_number( big.mark = ".", decimal.mark= ","))+
  theme(axis.text.y = element_text(size = 8), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Tipologie strutture ricettive Sardegna 2021", subtitle= "Numero medio mensile strutture ricettive in Sardegna \nper tipologia (escluse top 5 tipologie)") +
  
  xlab("Tipologia Struttura") + ylab("N° strutture aperative")
## Selecting by tipologia2

############# dividere il grafico in 2? ##############

Durante l’anno 2021 in Sardegna mediamente sono state operative ogni mese circa 300 case e appartamenti per vacanze e 42 strutture della tipologia ALbergo residenziale. Le restanti tipologie hanno un numero medio di strutture operanti inferiore a 40.

tipologia_ <- capacit2021 %>% 
  group_by(Tipologia) %>%
  summarise(Letti = round(sum(Letti)/12), 0) # mesi

tipologia_
tipologia <-tipologia_ %>% 
  
  #mutate(proportion= Letti/sum(Letti)) %>%
  mutate(tipologia2= reorder(Tipologia, Letti))

tipologia %>%
  ggplot(aes(tipologia2, Letti))+
  
  geom_bar(stat = "identity")+
  coord_flip()+
  scale_y_continuous(labels = scales::comma_format(big.mark = ".", decimal.mark = ","))+
  theme(axis.text.y = element_text(size = 8), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle(label = "Capacità ricettiva Sardegna 2021", # capacità ricettiva= letti x numero di giorni di apertura
              subtitle = "Numero di posti letto ogni mese per tipo di struttura ricettiva") +
  xlab("Tipologia Struttura") + ylab("N° posti letto")

#titolo troppo lungo: mandare a capo o accorciare 
# togliere notazione scientifica asse x -->scale_x_continuous(labels = scales::comma_format(big.mark = ".",
                                          # decimal.mark = ",")+

Il numero medio di posti letto offerto ogni mese dell’anno dagli alberghi è quasi doppio rispetto al numero di letti di allogi privati (alberghi: 42.594, alloggi privati: 27.283 ). Si può inoltre affermare che il numero di posti letto del Campeggio è equiparabile al numero di posti letto di alloggi privati (24.694)

Arrivi

provenienza_cleaned %>%
  #group_by(provenienza) %>% 
  mutate(MonthLabel= month(mese, label= T)) %>% 
  #arrange(desc(arrivi)) %>%
  #head(300) %>%
  ggplot(aes(MonthLabel, arrivi, fill= MonthLabel)) + 
  geom_boxplot(coef=3, show.legend = FALSE) +
  scale_y_continuous(trans = "log2", labels = label_number( big.mark = ".", decimal.mark= ",")) +
  #scale_x_discrete(labels = scales::label_wrap(10))+
  theme(axis.text.y = element_text(size = 8), 
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Distribuzione arrivi durante i mesi ", 
          subtitle= "distribuzione degli arrivi nei mesi dei turisti provenienti dallo stesso luogo ") +
  xlab("Mesi") + ylab("Arrivi")+
  geom_jitter(width= 0.1, alpha =0.1, show.legend = FALSE) 

Per quanto riguarda le distribuzioni degli arrivi dei turisti che hanno la medesima provenienza, hanno tutte forma prossochè simmetrica. Fa eccezione la distribuzione di gennaio, in cui la mediana risulta maggiormente schiacciata verso il primo quantile rispetto al terzo (distribuzione assimetrica positiva). Si può inoltre osservare che la distribuzione degli arrivi per Giugno, Luglio, Agosto, Settembre, Ottobre è mediamente superiore alle distribuzioni dei restanti mesi.

arrivi_mese<- provenienza_cleaned %>% 
  group_by(mese)  %>% 
  summarise(arrivi = sum(arrivi))

arrivi_mese
arrivi_mese %>% 
  mutate(MonthLabel= month(mese, label= T)) %>%
  ggplot(aes(MonthLabel, arrivi))+
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = label_number( big.mark = ".", decimal.mark= ","))+
  theme(axis.text.y = element_text(size = 8), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Arrivi mensili nelle strutture in Sardegna 2021 ", 
          subtitle= "Numero di arrivi nelle strutture ricettive sarde nei vari mesi dell'anno") +
  xlab("N° Arrivi") + ylab("Provenienza")

  #scale_y_continuous(label= unit_format())

Il mese del 2021 in cui le strutture recettive ricevono il maggior numero di turisti è agosto, seguito da luglio, settembre e giugno. In seguito, si osserva ottobre con oltre 200 mila arrivi, mentre nei restanti mesi gli arrivi non superano mai quota 100 mila.

provincia_provenienza<- provenienza_cleaned %>% 
  group_by(provenienza, provincia) %>%
  summarise(arrivi = sum(arrivi), presenze = sum(presenze ))
## `summarise()` has grouped output by 'provenienza'. You can override using the `.groups` argument.
provincia_provenienza
provincia_provenienza %>%
  #arrange(desc(arrivi)) %>%
  #head(300) %>%
  ggplot(aes(provincia, arrivi, fill= provincia)) + 
  geom_boxplot(coef=3) +
  scale_y_continuous(trans = "log2", labels = label_number( big.mark = ".", decimal.mark= ",")) +
  scale_x_discrete(labels = scales::label_wrap(10))+
  theme(axis.text.y = element_text(size = 8), 
        plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Distribuzione arrivi per provincia di destinazione ", 
          subtitle= "distribuzione degli arrivi per provincia dei turisti provenienti dallo stesso luogo ") +
  xlab("Province") + ylab("Arrivi")+
  geom_jitter(width= 0.1, alpha =0.3) 

La distribuzione degli arrivi dei turisti(raggruppati per provenienza) che hanno come provincia di destinazione quella di Sassari è mediamente superiore rispetto alle altre. Al contrario la distribuzione degli arrivi dei turisti, che hanno come provincia di destinazione “Oristano”, è mediamente più bassa rispetto alle altre.

arrivi_mese<- provenienza_cleaned %>% 
  group_by(provincia)  %>% 
  summarise(arrivi = sum(arrivi)) %>% 
  mutate(provincia = reorder(provincia, arrivi))

arrivi_mese
arrivi_mese %>% 
  #mutate(MonthLabel= month(mese, label= T)) %>%
  ggplot(aes(provincia, arrivi))+
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = label_number( big.mark = ".", decimal.mark= ","))+
  scale_x_discrete(labels = scales::label_wrap(10)) +
  theme(axis.text.y = element_text(size = 8), plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5)) +
  ggtitle("Arrivi totali per provincia di destinazione Sardegna 2021 ", 
          subtitle= "Numero di arrivi totali per ciascuna provincia ") +
  xlab("Province") + ylab("Arrivi")

  #scale_y_continuous(label= unit_format())

Gli arrivi totali per la provincia di Sassari sono stati di oltre 1 milione. Per ciascuna delle restanti province gli arrivi totali sono al di sotto di quota 500 mila.

Conclusioni

É stata svolta un attività di preprocessing per analizzare i dati raggruppandoli secondo diverse categorie. Successivamente è stata fatta un’analisi esplorativa del dataset e volta ad analizzare la provenienza dei turisti, la tipologia delle strutture ricettive e gli arrivi. La tipologia di struttura ricettiva più diffusa è l’alloggio privato, ma la più diffusa in termini di posti letto è la tipologia alberghiera. Gran parte dei clienti delle strutture ricettive sono italiani (63%) e tra questi, molti provengono dalla Sardegna. Infine, per quanto riguarda gli arrivi, si concentrano nel periodo maggio-ottobre e una larga parte dei turisti ha come destinazione la provincia di Sassari.

```